領域相關詞彙極性分析及文件情緒分類之研究 (Domain Dependent Word Polarity Analysis for Sentiment Classification) [In Chinese]

نویسندگان

Ho-Cheng Yu

Ting-Hao Huang

Hsin-Hsi Chen

چکیده

The researches of sentiment analysis aim at exploring the emotional state of writers. The analysis highly depends on the application domains. Analyzing sentiments of the articles in different domains may have different results. In this study, we focus on corpora from three different domains in Traditional and Simplified Chinese, then examine the polarity degrees of vocabularies in these three domains, and propose methods to capture sentiment differences. Finally, we apply the results to sentiment classification with supervised SVM learning. The experiments show that the proposed methods can effectively improve the sentiment classification performance. ¬2B3/± `B[ ̈ ` ́μ ¶ Keywords: Document Sentiment Classification, Word Polarity Analysis, Machine Learning · ̧1o»#B[TUB[`,fHTU()/±j ¢£*1⁄41⁄2j3⁄4¿ 1¿ÀÁ>Â»#" TFSO Ã TFIDF j ̄£ÄÅ *l1 IDF ; SO XÆ*Ç È1 TFSOIDF*? ̄£ÉÊ*TFSOIDFËS?ÌÍH>Î¢§ PÏC* ̄ £Ég#ÐÑ> ̧@Òh TFSSIDF ËS TFSOIDF*TFSDIDF ËS TFIDF>Ó¢* Unigramj¢£A TFSSIDFDÔÕ*TFSOIDF; TFSDIDF"*ÅÖ1 TFIDF*;? ÌIJ>(×3TF: B[ØÁ*IDF: Ù:/±ØÁ*SO: PaÚ ©*SD: BC) TFIDF TFRF Delta TFSO TFSOIDF TFSDIDF TFSSIDF ]^_ 0.848 0.849 0.853 0.847 0.854 0.852 0.863 ab 0.916 0.906 0.914 0.915 0.924 0.918 0.923 cd 0.861 0.839 0.849 0.854 0.871 0.869 0.875 [1] Bo Pang and Lillian Lee, “Opinion Mining and Sentiment Analysis,” Foundations and Trends in Information Retrieval, vol. 2, issue 1-2, pp. 1-135, 2008. [2] Lun-Wei Ku and Hsin-Hsi Chen, “Mining Opinions from the Web: Beyond Relevance Retrieval,” Journal of American Society for Information Science and Technology, vol. 58, no. 12, pp. 1838-1850, 2007. [3] Man Lan, Sam-Yuan Sung, Hwee-Boon Low, and Chew-Lim Tan, ”A Comparative Study on Term Weighting Schemes for Text Categorization,” In Proceedings of 2005 IEEE International Joint Conference on Neural Networks, pp. 546-551, 2005. [4] Justin Martineau and Tim Finin, “Delta TFIDF: An Improved Feature Space for Sentiment Analysis,” In Proceedings of the Third AAAI International Conference on Weblogs and Social Media, pp. 258-261, 2009. Proceedings of the Twenty-Fourth Conference on Computational Linguistics and Speech Processing (ROCLING 2012)

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

主題語言模型於大詞彙連續語音辨識之研究 (On the Use of Topic Models for Large-Vocabulary Continuous Speech Recognition) [In Chinese]

本論文研究使用主題資訊之語言模型(Language Model)。當語言模型用於大詞彙連續語音辨識時,其主要的任務是藉由已解碼歷史詞序列資訊來預測下一個候選詞出現的可能性。傳統的 N 連(N-gram)語言模型容易受限於模型參數過多的問題,僅能用來擷取短距離的詞彙接連資訊,並不能考慮完整的歷史詞序列之語意資訊。因此,近十幾年來許多研究學者陸續提出各式主題模型(Topic Model),包括討論文件與詞之關係的機率式潛藏語意分析(Probabilistic Latent Semantic Analysis, PLSA)和潛藏狄利克里分配(Latent Dirichlet Allocation, LDA),以及討論詞虛擬文件與詞關係的詞主題模型(Word Topic Model, WTM)。這些模型主要都是透過一組潛藏的主題機率分布來描述文件與詞、或者詞虛擬文件與詞之間的關係...

متن کامل

相似度比率式鑑別分析應用於大詞彙連續語音辨識 (Likelihood Ratio Based Discriminant Analysis for Large Vocabulary Continuous Speech Recognition) [In Chinese]

在近十年來所發展出的自動語音辨識(automatic speech recognition, ASR)技術中,仍有許多研究者嘗試僅藉由前端處理來產生具有鑑別性的語音特徵,而獨立於後端模型訓練與分類器特性。本論文即在此思維下提出嶄新的鑑別式特徵轉換方法,稱為普遍化相似度比率鑑別分析(generalized likelihood ratio discriminant analysis, GLRDA),其旨在利用相似度比率檢驗(likelihood ratio test)的概念尋求一個維度較低的特徵空間。在此子空間中,我們不僅考慮了全體資料的異方差性(heteroscedasticity),即所有類別之共變異矩陣可被彈性地視為相異,並且在分類上,因著我們也將類別間最混淆之情況(由虛無假設(null hypothesis)所描述)的發生率降至最低,而達到有助於分類正確率提升的效...

متن کامل

Semantic Associative Topic Models for Information Retrieval

主題模型(topic model)被廣泛地應用在各種文件建模以及語音識別、資訊檢索和本文探勘系統中,有效地擷取文件或字詞的語意和統計資料。大多數主題模式,例如機率潛在語意分析(probabilistic latent semantic analysis) 和潛在狄利克里分配 (latent Dirichlet allocation),主要都透過一組潛藏的主題機率分布來描述文件與字詞之間的關係,並用以擷取文件的潛在語意資訊。然而,傳統的主題模型受限於詞袋(bag-of-words)的假設,其潛藏主題僅能用來擷取個體詞(individual word)之間的語意資訊。雖然個體詞可傳達主題信息,但有時會缺乏本文準確的語意知識,容易造成文件的誤判,降低檢索的品質。為了改善主題模型的缺點,本論文提出一種新穎的語意關聯主題模型(semantic associ...

متن کامل

運用概念模型化技術於中文大詞彙連續語音辨識之語言模型調適 (Leveraging Concept Modeling Techniques for Language Model Adaptation in Mandarin Large Vocabulary Continuous Speech Recognition) [In Chinese]

在實作上,概念模型會使用(搜尋)與初步語音辨識結果相關的同領域文件(或調適語料)內表述的若干概念,用以近似語者內心欲傳達的真正含意,並基於此來建立概念語言模型。而概念語言模型的建立是分兩個面向來探討,它們分別是「詞彙」面向與「文件群聚」面向。首先,在實作上,概念模型會使用(搜尋)與初步語音辨識結果近似同領域文件(或調適語料)內表述的若干概念,用以近似語者內心欲傳達的真正含意,並基於此來建立概念語言模型。而概念語言模型的建立是分兩個面向來探討,它們分別是「詞彙」面向與「文件群聚」面向。首先, 我們發展所謂的詞概念語言模型(Word-based Concept Language Model),並應用於語言模型調適。在建構詞概念語言模型時,我們期望能夠針對每一語句不同的語意內容(第一階段語音辨識結果,以詞圖[3]表示),在調適語料的若干相關的文件中挑選一組具有代表性的概念...

متن کامل

結合非線性動態特徵之語音情緒辨識(Speech Emotion Recognition via Nonlinear Dynamical Features)[In Chinese]

本研究採用機器學習法對語音情緒辨識進行探討。除一般常被採用之語音特徵, 如音高、共振峰、能量以及梅爾倒頻譜係數之外,研究中加入了夏農熵和曲率指標(curvature index)[9]兩項非線性特徵,再利用費雪鑑別比與基因演算法搭配的方式進行特徵挑選。最後使用支持向量機分類器,對柏林語音情緒資料庫進行情緒分類分析。在加入非線性特徵後,男性及女性之情緒辨識率分別為 88.89%及 86.21%。 Abstract This study is focus on speech emotion recognition through machine learning method. We add two nonlinear dynamical features: Shannon entropy and curvature index, of each frame other than ...

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره شماره

صفحات -

تاریخ انتشار 2012

領域相關詞彙極性分析及文件情緒分類之研究 (Domain Dependent Word Polarity Analysis for Sentiment Classification) [In Chinese]

نویسندگان

چکیده

منابع مشابه

主題語言模型於大詞彙連續語音辨識之研究 (On the Use of Topic Models for Large-Vocabulary Continuous Speech Recognition) [In Chinese]

相似度比率式鑑別分析應用於大詞彙連續語音辨識 (Likelihood Ratio Based Discriminant Analysis for Large Vocabulary Continuous Speech Recognition) [In Chinese]

Semantic Associative Topic Models for Information Retrieval

運用概念模型化技術於中文大詞彙連續語音辨識之語言模型調適 (Leveraging Concept Modeling Techniques for Language Model Adaptation in Mandarin Large Vocabulary Continuous Speech Recognition) [In Chinese]

結合非線性動態特徵之語音情緒辨識(Speech Emotion Recognition via Nonlinear Dynamical Features)[In Chinese]

عنوان ژورنال:

اشتراک گذاری